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JE 要 充分 挖掘 选择 题 (Multiple-Choice, MO) 的 诊断 信 |) 


精度 ,为 了 弥补 参数 模型 基于 大 样本 才能 获得 可 靠 估计 的 


究 提 出 了 非 参 数 的 多 选 题 诊断 方法 ,模拟 和 实 训 
法 在 多 数 情况 下 表现 优 于 参数 类 诊断 模型 。(2) 当 MC Tli 
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实证 研究 中 非 参 数 方法 和 参数 类 模型 的 分 类 一 致 性 程度 较 高 ，d ,i_mc 距离 法 估计 得 到 的 考 4 
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明 : 
中 题目 参数 存在 较 大 差异 时 ，d,j_wc 法 的 表现 最 优 。 (3) 
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ASCE TRAE, 将 干扰 项 信息 考虑 在 内 可 以 提升 诊断 


足以 及 适用 于 班级 水 平 的 小 样本 诊断 测验 情境 ,本 研 
(1) 当 MC 测验 中 题目 参数 不 存在 较 大 差异 时 ，dj_wyc 


惊 性 总 体 掌握 程度 


B 


与 总 分 相关 最 高 。 最 后 , 基于 MC 诊断 测验 的 特点 提出 了 若干 研究 方向 。 
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分 类 号 B841 


引言 


心理 测验 理论 在 历经 长 期 发 展 后 , 已 由 标准 测 
验 理论 过 度 到 新 一 代 测 验 理论 。 作 为 新 一 代 测验 理 
论 的 认 知 诊断 评估 (Cognitive Diagnostic Assessment, 
CDA), 重 在 评价 学 生 在 知识 掌握 方面 的 优 劣 势 ， 
从 而 为 个 性 化 教学 提供 依据 。 因 此 ,准确 估计 学 生 
的 知识 状态 (Knowledge State，KS) 是 个 性 化 教学 的 
E 要 前 提 ， 知 估 计 不 精准 ， 则 补救 会 有 偏差 。 

目前 估计 学 生 KS 的 方法 有 两 大 类 , 一 类 
数 类 方法 , 一 类 是 非 参 数 方法 。 前 者 特点 为 : 能 将 
被 试 的 潜在 能 力 与 题目 参数 用 显 式 数 学 表达 式 ， 即 
认 知 诊断 模型 (Cognitive Diagnosis Model, CDMs) 
呈现 ， 易 于 刻画 作答 时 的 认 知 加 工 过程 。 但 其 对 总 
体 假 疫 有 依赖 (如 单调 性 、 作 答 局 部 独立 性 、 参 数 
不 变性 等 ) 且 当 模型 复杂 后 ,参数 估计 多 采用 
MCMC 算法 , NRK, 不 适合 于 小 样本 的 诊断 
GK 等 , 2018; 康 春花 等 ,2015)。 CDM 主要 包括 
对 数 线 性 模型 (LCDM; Henson et al., 2009), J X. 
DINA 模型 (GDINA; de la Torre, 2011), 广义 诊断 模 
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型 (GDM; von Davier, 2008)， 以 及 若干 简约 模型 ， 如 
DINA, DINO, A-CDM, RRUM 等 。 后 者 特点 为 : 
不 基于 模型 ， 因 此 无 需 对 被 试 总 体 进 行 限制 ， 且 佑 
计 方 便 快 捷 ， 尤 其 适合 小 样本 诊断 (Chiu，et al., 
2018)。 但 它 无 法 表征 属性 间 的 交互 作用 ,无 法 得 到 
模型 拟 合 指标 。 非 参数 诊断 方法 主要 有 聚 类 分 析 法 
(Chiu, et al., 2009; 康 春 花 等 , 2015; Wk 等 , 2018)、 
距离 判断 法 (Chiu & Douglas, 2013; Chiu et al., 2018 
康 春 花 SH, 2019) 和 机 器 学 习 法 ( 李 世 珍 , 2019) 55 
不 论 使 用 哪 类 方法 ， 都 需要 分 析 被 试 在 测验 上 
的 作答 数据 才能 知晓 其 KS。 当 前 , 在 TIMSS, 
PISA, NAEP 和 TOEFL 等 标准 化 测验 中 ,主流 题 
型 为 选择 题 (Multiple-Choice,，MC), 因为 MC 题目 
有 如 下 优势 : 不 受 主观 误差 影响 (Thissen & Wainer, 
1993)、 能 够 提高 测验 信 度 (Steven, 2004)、 易 于 批阅 
旦 计 分 快速 、 能 够 满足 内 容 平衡 需求 (Osterlind， 
1998) 等 ,但 目前 对 MC 题目 的 使 用 效率 较 低 ， 仅 对 
是 否 选 择 了 正确 答案 进行 评分 , 忽略 了 大 量 存 在 于 
干扰 项 中 的 诊断 信息 (Thissen & Steinberg, 1984; de 
la Torre, 2009; 李 瑜 , 2014; 刘 拓 , 2016)。 在 数据 分 
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析 时 未 能 纳入 干扰 项 信息 , 不 仅 是 对 测验 编制 的 极 
大 浪费 , 更 会 降低 被 试 能 力 的 估计 精度 (Bock, 1972; 
Thissen, 1976; Levine & Drasgow, 1983; de la Torre, 
2009)。 为 了 在 分 析 时 纳入 干扰 项 信息 , 在 编制 MC 
题目 时 ,不 仅 需 要 对 正确 答案 进行 编码 ,还 要 对 干 
扰 项 编码 。 表 1 呈现 了 一 道 4 个 选项 的 分 数 减法 编 
码 例子 。 该 题目 考察 了 3 个 属性 : S1 整数 借 位 , S2 
分 数 相 减 , S3 约 分 。 被 试 需要 掌握 3 个 属性 才能 选 
择 正确 答案 D, 若 只 掌握 了 S2 属性 , 会 选择 选项 
A, 若 只 掌握 了 S2 和 S3 属性 , 则 会 选择 选项 B。 可 
以 看 出 ， 每 个 干扰 项 都 在 起 到 诊断 作用 ， 因 此 比 起 
二 值 计 分 结果 ， 显 然 会 提升 诊断 精度 。 


表 1 选项 编码 的 分 数 减法 示例 


4 7 属性 
12 12 S1 S2 S3 
3 
A Q2 
12 Y 
B oi Y N 
4 
C 12 v y 
12 
3 
D i> N Y Y 
4 


ES 


E: 示例 来 自 de la Torre (2009, pp.166—-167) 


为 了 充分 利用 MC 的 诊断 信息 并 分 析 MC 数据 ， 
研究 者 提出 了 相应 的 MC-CDMs。 如 , MC-DINA 模 
型 (Multiple-Choice DINA; de la Torre, 2009)， 基 于 
选项 层面 的 SICM 模型 (Scaling Individuals and 
Classifying Misconceptions Model; Bradshaw & 
Templin，2014)， 多 策略 的 多 选 题 认 知 诊断 模型 ( 李 
Hal, 2014)， 基 于 多 选 题 选项 层面 的 GDCM-MC 模型 


(Generalized Diagnostic Classification Models for 


Multiple Choice Option-Based Scoring; DiBello, et 
al.，2015)， 以 及 三 个 结构 化 的 MC-DINA 模型 
(Structured DINA model for multiple-choice items; 
Ozaki, 2015)。 上 述 模 型 属于 参数 类 方法 , 需要 在 大 
样本 基础 上 才能 获得 比较 精确 的 参数 估计 结果 ， 而 
且 使 用 到 的 MCMC 算 法 非常 耗 时 。 然 而 , 正如 Chiu 
等 (2018) 指 出 ，CDM 更 适合 用 于 大 规模 测验 ， 若 将 
其 用 于 小 样本 ， 即 在 班级 水 平 上 监督 教学 和 学 习 过 
EP, 将 得 不 到 准确 的 参数 估计 结果 。 因 此 ， 本 研 
究 将 提出 能 够 分 析 小 样本 数据 ,并且 还 能 充分 考虑 
MC 题目 干扰 项 信息 的 非 参数 诊断 方法 ， 旨 在 最 大 
化 MC 题目 的 诊断 功效 ， 又 能 适用 于 小 班 规模 的 诊 
断 目标 。 


2 传统 非 参 分 类 法 简介 


如 前 所 述 , CDA 中 的 非 参 方法 主要 为 聚 类 分 析 
法 、 距 离 判 断 法 和 机 器 学 习 法 。 聚 类 方法 的 最 大 不 
足 在 于 标签 识别 问题 ， 即 无 法 判断 聚 类 得 到 的 类 别 
的 KS 是 哪 一 种 (Chiu et al., 2009; Guo, et al., 2020). 
机 器 学 习 法 的 不 足 在 于 ， 该 类 方法 需要 提前 生成 数 
据 对 ， 以 生成 的 数据 对 来 训练 神经 网 络 ( 李 世 珍 ， 
2019)， 数 据 对 的 质量 很 大 程度 上 影响 诊断 结果 ， 
并 且 该 类 方法 需要 消耗 大 量 的 计算 机 算 力 。 为 了 弥 
补 以 上 缺点 , Chiu Fil Douglas (2013) 提 出 了 3 种 基于 
汉 明 距离 的 非 参 分 类 (nonparametric classification, 
NPC) 方 法 , 分 别 是 简单 汉 明 距离 d; ， 加 权 汉 明 距 
BS dy 和 惩罚 汉 明 距离 dam 。 它 们 分 别 表述 为 公式 (1) 
至 公式 (3): 


d, (Y,.3;) = 3 


j=l 
上 的 实际 作答 结果 ， 及 = (73.775577) ) 为 被 试 i 在 
K 
J 道 题目 上 的 理想 作答 结果 , A n= | e s 天 为 


k=l 
ids 5 ER PET RK ou HE BIN iE TE k EIE 
握 情况 ,掌握 时 ，wx =1, 否则 cn =0。 gx 是 Q Hi 
阵 中 的 元 素 ,表示 题目 /是 否 考察 了 属性 当 考察 
时 ，gqx =1, 否则 qj =0 。 该 方法 的 判断 逻辑 是 : 
实际 作答 与 理想 作答 之 间 的 汉 明 距离 越 小 , 属于 该 
理想 作答 模式 所 对 应 的 KS 的 可 能 性 越 高 ,因此 可 
将 被 试 判 归 到 该 KS 中 。 
L 1 
da (07 2.5 155 ts 
公式 (2) 为 加 权 汉 明 距 离 ，5; 表示 题目 j 的 实际 
正确 作答 比例 。 若 万 越 大 (或 越 小 ), 则 该 题目 对 答 
对 和 答 错 被 试 的 区 分 能 力 就 越 强 ,因此 其 权重 就 越 
大 。 其 余 符号 含义 同 公式 (D)。 


Y; -nij (1) 


Ty | (2) 


J 
d, (Yom) = > well¥y = T] Y, — My |+ 
j=l 


J 
> w ALY, =0]| -| (3) 
j=l 


公式 (3) 为 惩罚 汉 明 距离 ，w。 RU w, 23 9] 2S 88 N 
和 失误 权重 ， 用 以 调节 不 同 题 型 对 距离 大 小 的 影响 
(Chiu & Douglas, 2013), 权重 的 应 用 场景 是 当 某 些 
题 型 的 猜测 行为 或 失误 行为 发 生 的 可 能 性 存在 较 
大 差异 时 ， 则 需要 对 猜测 行为 或 失误 行为 赋予 不 同 
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的 权重 。 如 ,在 开放 性 题目 中 ,被 试 几乎 不 可 能 在 
未 掌握 题目 所 考察 的 属性 时 猜 对 题目 ， 应 给 予 猜 测 
行为 ( 即 对 应 =0, Y=1 时 ) 更 多 的 惩罚 。 当 题目 的 
猜测 系数 小 于 失误 系数 时 ,有 we > ws H w= 
w, =1 时 ,惩罚 汉 明 距离 等 价 于 简单 汉 明 距离 。 

随后 , Chiu 等 (2018) 在 NPC 基础 上 提出 了 广义 
分 参数 分 类 (general nonparametric classification, 
GNPC) 方 法 ,目的 是 使 非 参 数 认 知 诊断 方法 可 以 更 
好 处 理 属 性 之 间 存 在 的 复杂 链接 情况 。 但 GNPC 77 
法 的 复杂 性 更 大 , 且 根 据 研 究 结果 表明 ，GNPC 和 
NPC 的 分 类 准确 性 在 不 同 实验 条 件 下 各 有 高 低 ， 
GNPC 未 展现 出 明显 优势 ， 因 此 本 研究 基于 简洁 性 
和 实用 性 考虑 ， 选 择 在 NPC 基础 上 开发 适用 于 MC 
题 型 的 非 参数 方法 。 


3 MC 测验 的 非 参 分 类 方法 


基于 传统 NPC 的 思想 ,本 研究 提出 了 3 种 可 处 
理 干扰 项 信息 的 非 参 数 方法 。 记 题目 j 包含 O 个 选 
Ji, o = 1,2,0, 被 试 的 作 管 反应 向 量 ¥ 的 结果 形 
式 是 一 个 多 维 向 量 ，, 是 其 中 的 元 素 , 表示 被 试 i 
在 题目 j 中 选项 。 上 的 选择 情况 ,车 被 试 选择 了 选 
Hio, WJY, =1, FU Yo =O. MC 测验 中 被 试 的 理 
想 作 答 m, 可 表示 为 : 


Ly 
Mio = nj *|1- [| [a7 (4) 
k=1 
= ; (Git jor)” 
mo - | [2-2 ] (5) 


k=1 

Kj; 表示 题目 j 所 考察 的 属性 个 数 ,， 有 K; SK, 
即将 9 向 量 中 的 元 素 0 去 掉 并 将 元 素 1 向 前 排序 ， 
以 使 这 些 考察 了 的 属性 为 前 K? 个 属性 (de la Torre, 
2011)。 例 如 ， 当 do 2(,01) 时，K;=2， 此 时 ， 
dj, = (jor jos)» "PRR (collapsed)g 向 量 , 其 
对 应 的 KS BR BP ASR KS. quu 表示 题目 j TE 
选项 o。 上 对 属性 的 考察 情况 ， 若 考察 了 ，g jx =1， 
否则 qjz =0 。7 加 用 于 判断 被 试 工 在 题目 ESSI 
缩 KS 与 选项 o 所 考察 属性 之 间 是 否 完全 一 致 ， 
Njo =1 表示 完全 一 致 ， 否 则 wj。= 0 o no HY A EY EAE 
除 被 试 随机 作 管 后 的 理想 作答 情况 ，w, 取 值 为 1 
需要 满足 两 个 条 件 : (Dw, =1, 且 有 @ 被 试 i 至 少 掌 


Kj 
握 题目 /所 考察 的 一 个 属性 ， 即 有 1-] [au-w) =1。 


k=1 


由 公式 (4) 可 以 看 出 ， 只 有 当 被 试 i AMA LA 


缩 KS 与 选项 o 所 考察 属性 之 间 完 全 一 致 ， 且 使 用 
了 真实 能 力作 答 时 ， 有 =l; 只 要 被 试 i 在 题目 j 
EH KS 与 选项 o 所 考察 属性 之 间 不 完全 一 致 ， 
或 者 被 试 i 随机 猜测 时 ， 有 nj, = 0 。 因 此 , 公式 (4) 
可 以 用 来 表示 被 试 被 选项 o 所 “吸引 ”的 程度 ， 即 理 
想 作 答 。 

计算 实际 作答 和 理想 作答 之 间 的 汉 明 距离 便 
可 构造 分 析 MC 题 型 的 非 参 数 诊断 方法 ， 分 别 记 
TE: dy cs dus cs d jy ce 距离 。3 种 新 方法 的 区 别 
EF, WRT Yir 之 间距 离 的 权重 方式 不 同 , T 
分 别 介绍 3 种 新 方法 。 
3.1 d, uc 距离 法 

dj,_xmc 距离 是 简单 汉 明 距离 q; 在 MC 题 型 上 的 
推广 ,赋予 六 ,与 ,中 不 一 致 元 素 相 同 的 权重 。 该 
方法 中 的 观测 作答 马 和 理想 作答 六 之 间 的 汉 明 距 
离 可 以 定义 为 : 


J O 
duc (Fs) = >>. | Yo -o l (6) 
j=l o=1 


这 是 3 种 新 方法 中 最 简洁 的 一 种 ， 对 所 有 
与 ,不 一 致 元 素 的 次 数 进 行 简单 求 和 ， 即 可 得 多 
Iq; 之 间 的 d, uc 距离 。 
3.2 d,, yc 距离 法 

don-me 距离 是 加 权 汉 明 距 离 dg 在 MC 题 型 上 
的 推广 ， 其 表达 式 为 : 


J O 
* 1 * 
dwn- (Y,.4; ) = — 一 | X, Tijo | (7) 
ub 22 075 abis 
Hp, Po 表示 在 题目 j 中 选择 选项 o 的 比例 ， 
1 


是 实际 作答 和 理想 作答 在 选项 水 平 上 


Piall= Dis) 
CHE ot 5; 越 大 (或 越 小 )， 则 该 题目 对 区 别 选择 
了 选项 o 和 未 选择 选项 o 的 被 试 的 能 力 就 越 强 ， 
此 其 权重 就 越 大 。 特 别 地 ，Chiu 和 Douglas (2013) 
在 加 权 汉 明 距 离 中 未 考虑 到 在 实际 测验 场景 中 存 
在 有 ;=0 的 情况 ， 此 时 会 导致 权重 的 分 母 为 0。 
此 ,本 研究 将 该 情况 下 的 pu, 赋值 为 较 小 的 常数 ， 
如 0.001。 
3.3. d,, yc 距离 法 

如 前 文 所 述 ，Chiu 和 Douglas (2013) 提 出 的 惩 
罚 汉 明 距 离 ， 其 本 质 是 对 不 同 猜测 和 失误 行为 进行 
刻画 ， 如 ， 当 题目 猜测 概率 很 小 时 (如 开放 题 )， 那 
么 发 生 了 猜测 行为 就 应 该 给 予 较 大 的 惩罚 ， 即 ws 
应 该 取 较 大 值 。 但 作者 在 研究 中 将 惩罚 权重 w, 和 
w 固定 为 题目 间 相同 , 该 设置 有 个 缺陷 : 当 一 份 测 
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验 中 不 同 题目 间 质 量 存 在 较 大 差异 时 , 它们 的 惩罚 
权重 应 该 不 同 。 因 此 ,将 惩罚 汉 明 距离 d, 推广 到 
MC 测验 中 , 需要 考虑 为 不 同 质 量 的 题目 设置 不 同 
的 惩罚 权重 。 dys_xc 距离 可 被 定义 为 : 


J O 
dj c (Yon; ) = È ws; P» - I] yj, — Myo | + 
j=l o=l 


J O 
9377 [Sm = 0] | Yijo -Mo | (8) 
j=l o=1 


o 
其 中 ，y; = n. ， 用 于 判断 被 试 i 是 否 使 用 了 
o-l 


真实 能 力作 答 , A Bod i AH j ERIA KS É 
全 匹配 了 题目 j 的 某 一 选项 所 考察 的 属性 时 ，y; 才 
等 于 1。 7[] 为 示 性 函数 ， 当 括号 中 两 者 相等 , 则 返 
回 1， 否则 返回 0。 当 7[yj =1]=1 的 同时 发 生 失 误 行 
Al, 应 给 予 失误 权重 ; m y; =0]=1 的 同时 发 生 
猜测 行为 时 ， 应 给 予 猪 测 权重 。 特 别 地 ， 当 一 份 测 
验 中 题目 质量 间 不 存在 较 大 差异 时 ， 可 固定 ws; = 
wg, =1， 此 时 djs_mc 距离 法 等 同 于 dj;_yec 距离 法 。 


4 模拟 研究 一 


4.1 研究 目的 

本 研究 拟 采 用 蒙特 卡 洛 模拟 方式 探讨 与 诊断 
模型 相 比 ，3 种 非 参数 诊断 方法 是 否 能 有 效 提 升 对 
被 试 KS 的 估计 精度 。 
4.2 ”数据 生成 方式 ( 真 模型 ) 的 选择 

为 了 生成 作答 数据 得 使 用 参数 类 模型 ,该 做 
法 也 是 非 参 诊断 研究 中 常见 的 做 法 (Chiu & Douglas, 
2013; Chiu et al., 2018)。 本 研究 选取 Ozaki (2015) 
所 提出 的 结构 化 MC-DINA 模型 1 (MC-S-DINAI, 
MC1) 和 结构 化 MC-DINA 模型 2 (MC-S-DINA2， 
MC2)。 因 为 这 两 个 模型 比 其 他 MC-CDMs 更 加 简 
W, 根据 作者 的 模拟 研究 表明 , MCI 和 MC2 的 诊断 
精度 要 优 于 MC-DINA 模型 (de la Torre, 2009)。 未 
选择 MC3 模型 的 原因 是 : 它 的 表现 不 如 MC2, H 
比 MC2 更 复杂 。 因 此 ,本 研究 选择 MC2 作为 “最 佳 
情境 ”的 结果 参照 MCI 作为 “最 简洁 情境 ”的 结果 
参照 下面 分 别 对 MC1 和 MC2 模型 进行 简要 介绍 。 

对 于 MCI, 被 试 i 选择 题目 j 的 第 o 个 选项 的 
概率 为 : 


.( 8; \™ a-y) 
Pp -1|a)) = yj0.-6;)' ^ 2] tg 09 
Reb, qv WME SARS) HI, 7 
的 计算 方式 与 公式 (8) 中 的 相同 。6; 是 题目 的 “失误 ” 


参数 ， 表示 被 试 没有 选择 最 匹配 其 KS 的 那个 选项 
的 概率 ， 即 出 现 了 “失误 ”。 不 难看 出 , MC1 模型 中 
的 题目 只 有 一 个 参数 ， 因 此 它 是 最 简洁 的 模型 代表 。 

对 于 MC2, 被 试 i 选择 题目 j 的 第 o 个 选项 的 


概率 为 : 
I-Nijo —w.. 
Bi | E: Vii) (10) 
O-1 O 
与 MCI 不 同 之 处 在 于 , MC2 的 题目 参数 5; 被 
定义 在 选项 水 平 上 ， 因 此 不 同 选项 具有 不 同 的 “ 失 


O 
误 概率 "。 Von, ， 表 示 被 试 的 理想 作答 取 1 
o=l 


P(Y, =] a) = 7y(1-5;.)” 


ijo 


时 ， 而 没有 选择 最 匹配 选项 的 概率 。 当 理想 作答 为 
0 时， 则 公式 (10) 变 为 CD, KREEMI 
其 余 符 号 含义 同 公式 (10)。 
4.3 ”实验 设计 

本 研究 为 4 因素 完全 交叉 设计 , 4 个 自 变 量 分 
别 是 样本 量 ( N = 30, 50,100) 、 题 目 长 度 (.J =10, 20, 
30 、 题 目 质量 (高 质量 、 低 质量 ) 和 真 模型 (MC1， 
MC2)。 在 每 个 实验 条 件 下 ,分别 使 用 3 种 非 参 数 诊 
断 方 法 与 2 种 诊断 模型 分 析 数 据 ， 并 计算 被 试 的 模 
式 / 属 性 判 准 率 。 采 用 与 Ozaki (2015) 相 同 的 带 有 干 
扰 项 信息 编码 的 Q 矩阵 ， 共 考察 5 个 属性 ， 如 表 2 
Biz, xe 2 中 的 数字 表示 该 属性 在 该 题 所 被 考察 的 
次 数 。 以 第 23 题 y 向 量 为 例 说 明 , qi = [21000] 表 
HH 4 个 选项 的 编码 分 别 为 [11000]、[10000]、[00000] 
和 [00000]。 当 题目 长 度 为 10 时 , 使 用 Q 矩阵 的 后 
10 题 ， 当 题目 长 度 为 20 时 , 使 用 Q 和 矩阵 的 后 20 题 ， 
题目 长 度 为 30 时 , 使 用 整个 Q HEME. MCI 和 MC2 
使 用 MCMC 算法 进行 参数 估计 , 在 R 中 实现 参数 
ftit, 其 MCMC 设置 与 Ozaki (2015) 相 同 ， 且 所 有 
参数 估计 得 到 的 让 值 小 于 1.1， 达 到 了 收敛 标准 。 

被 试 KS 真 值 从 多 元 正 态 阐 值 模型 (Chiu et al., 
2009) 中 生成 ,该 方法 被 广泛 应 用 于 认 知 诊断 领域 
中 (e.g. Chiu et al., 2009; Chiu & Douglas, 2013; 
Chiu et al., 2018; Chang et al., 2019)。 首 先 定 义 一 个 
天 维 向量 9, = (01,0,,…,Ox ) 作为 被 试 i 在 每 个 属性 
上 的 连续 能 力 值 ，b 从 多 元 正 态 分 布 MVN (0,2) P 
生成 ， 协 方差 矩阵 马 的 非 对 角 线 元 素 p 可 以 描述 属 
性 间 的 相关 ,本 研究 设置 p = 0.5, 用 以 表示 中 等 程 
度 相 关 (Chiu & Douglas, 2013), X ll F Aras: 


1 0.5 
= E^ 
0.5 1 
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表 2 MC 题目 中 干扰 项 已 编码 的 Q 矩阵 

l 题目 
属性 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 
Al 1 0 0 0 0 1 0 0 0 0 2 2 1 2 0 0 0 0 0 0 2 101 3 12 2 0 0 0 0 
A2 0 1 0 0 0 0 1 O 0 0 1 O 0 0 2 1 1 0 0 0 2 2 1 0 0 0 2 2 2 0 
A3 0 0 1 0 0 0 0 1 O 0 0 1 0 0 1 O 0 1 1 O 1 002 2 0 2 2 0 2 
A4 0 0 0 1 0 0 0 0 1 0 0 0 2 0 0 2 0 2 0 1 O 2 0 2 0 2 2 0 2 2 
AS 0 0 0 0 1 O 0 0 0 1 O 0 0 1 0 0 2 0 2 2 0 0 1 0 2 2 0 2 2 2 


被 试 的 KS 真 值 w = (aap…ak) 可 被 定义 为 : 
， af k 
Qik = "i din (xs) 

' otherwise. 
式 中 @ Q9) 是 标准 正 态 分 布 概率 密度 函数 的 逆 函 数 ， 
间 给 定 概率 值 时 ， 所 求 取 的 ZI% 

当真 模型 为 MC1 时 ， 高 质量 题目 的 参数 5) 从 
U (0.1,0.2) 中 生成 ， 低 质量 题目 的 参数 从 U(0.2,0.3) 
中 生成 。 当 真 模型 为 MC2 时 , 高 质量 题目 的 参数 
Sjo SK U (0.10.2) 中 生成 ， 低 质量 题目 的 参数 从 
U(0.2,0.3) 中 生成 。 需 要 注意 的 是 ,在 模拟 研究 一 
中 ， 由 于 同一 实验 条 件 下 的 所 有 题目 的 题目 质量 
不 存在 较 大 差异 (在 同一 分 布 范 围 内 生成 )， 故 可 
BOE di, uc 距离 法 中 所 有 题目 惩罚 权重 均 为 1, 
dj, c E ES 1E EH F d, we ， 因 此 结果 仅 呈 现 


d, yc 距离 法 的 表现 。 所 有 实验 循环 100 次 以 减少 
随机 误差 。 
4.4 评价 指标 

使 用 模式 判 准 率 (PCCR) 和 平均 属性 判 准 率 
(AACCR) 评 价 被 试 KS 的 估计 精度 ,公式 分 别 如 下 : 


AACCR = am (11) 
N k 
Ll 

PCCR- 7 (12) 


其 中 ， 当 估计 得 到 的 如 与 真 值 a, 相等 时 ， 
W, =1, GMI, =0。 
45 结果 

表 3 呈现 了 真 模型 为 MC1 时 ,两 类 诊断 方法 在 


RI 两 类 诊断 方法 的 模式 判 准 率 和 属性 判 准 率 ( 真 模型 为 MC1) 


PCCR AACCR 
题目 质量 题目 数量 ”样本 量 
n ico MCI MC2 d, wc dy. MCI MC2 
高 质量 10 30 0.784 0.710 0.763 0.703 0.918 0.884 0.906 0.896 
50 0.783 0.701 0.749 0.690 0.916 0.883 0.900 0.889 
100 0.789 0.703 0.757 0.704 0.922 0.888 0.902 0.896 
20 30 0.911 0.893 0.896 0.888 0.968 0.962 0.930 0.928 
50 0.911 0.895 0.879 0.863 0.976 0.962 0.918 0.970 
100 0.912 0.895 0.905 0.896 0.973 0.963 0.921 0.968 
30 30 0.957 0.947 0.979 0.964 0.987 0.984 0.992 0.991 
50 0.951 0.934 0.973 0.966 0.986 0.980 0.992 0.989 
100 0.954 0.940 0.976 0.970 0.986 0.982 0.993 0.983 
低 质量 10 30 0.575 0.495 0.498 0.450 0.843 0.798 0.814 0.799 
50 0.588 0.501 0.505 0.428 0.843 0.801 0.820 0.788 
100 0.590 0.501 0.518 0.420 0.849 0.806 0.828 0.784 
20 30 0.802 0.768 0.742 0.655 0.933 0.919 0.917 0.888 
50 0.798 0.762 0.742 0.651 0.935 0.921 0.919 0.889 
100 0.793 0.760 0.752 0.671 0.930 0.917 0.922 0.892 
30 30 0.865 0.849 0.820 0.757 0.964 0.959 0.952 0.935 
50 0.868 0.845 0.837 0.777 0.965 0.957 0.957 0.940 
100 0.874 0.853 0.848 0.801 0.967 0.959 0.961 0.947 


TE: 粗 体 表示 该 条 件 下 的 最 大 值 
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不 同 条 件 下 的 模式 判 准 率 和 平均 属性 判 准 率 。 总体 
LA, 在 大 多 数 条 件 下 ， 非 参数 类 方法 的 PCCR 和 
AACCR 要 高 于 参数 类 模型 ,具体 来 说 , 第 一 , 题目 
质量 对 两 类 诊断 方法 均 有 较 大 影响 , 题目 质量 越 高 ， 
判 准 率 越 高 。 在 高 质量 题目 情况 下 ，d,_wc 在 多 数 
情况 下 表现 最 优 ， 其 PCCR 的 范围 为 0.783 至 0.957, 
AACCR 的 范围 为 0.918 至 0.987; 对 于 参数 类 模型 
ii zi, MCI 的 表现 要 优 于 MC2, 其 PCCR 的 范围 分 
别 为 0.749 至 0.979 以 及 0.690 至 0.970 ZH], 
AACCR 的 范围 分 别 在 0.900 至 0.993 以 及 0.889 至 
0.991 之 间 ; dy, c 的 表现 相对 较 差 。 在 低 质 量 题 
BRAWF, dy uc 方法 的 诊断 精度 能 维持 在 
较 高 水 平 并 且 表 现 最 优 ， 其 PCCR 的 范围 在 0.575 
至 0.874 Zia], AACCR 的 范围 在 0.843 至 0.967 之 
间 ; d,, uc 5 MCI 的 表现 相近 ,其 PCCR 的 范围 分 
别 在 0.495 至 0.853 以 及 0.498 至 0.848 之 间 ， 
AACCR 的 范围 分 别 在 0.789 至 0.959 以 及 0.814 至 
0.961 ZI), dy, we 在 J=20 和 30 时 的 PCCR 高 于 
MC1， 表 明 在 题目 质量 较 低 时 ,大 题目 数量 中 等 或 
较 多 ， 加 权 距 离 法 的 判 准 率 要 优 于 诊断 模型 ; MC2 
在 低 质量 时 表现 相对 较 差 。 该 结果 表明 , 题目 质量 
对 MC-CDM IEK, dyme 在 一 定 程 度 上 可 
以 缓冲 题目 质量 变 低 后 给 诊断 精度 带 来 的 影响 。 
第 二 ,题目 数量 对 参数 和 非 参 数 诊断 方法 均 会 


带 来 影响 。 首 先 ， 随 着 题目 数量 增多 ， 两 类 诊断 方 
法 的 判 准 率 均 在 提升 ， 但 相 较 而 言 , MC-CDM 对 题 
目 数 量 的 变化 更 加 敏感 。 例 如 , 在 高 质量 条 件 下 ， 
J 2108, d, uc 表现 最 优 , 其 PCCR 在 0.785 左右 ， 
AACCR ££ 0.919 左右 ; 真 模型 MC1 在 相同 条 件 下 ， 
PCCR 在 0.756 £A, AACCR 在 0.903 EA, 存在 差 
PR; 当 题 量 提升 至 20 时 ， 两 者 仍 存在 差距 ，d_wc 
的 PCCR 提升 至 0.911 左右 ，AACCR 提升 至 0.967 
左右 ， 真 模型 MCI 在 相同 条 件 下 , PCCR 提升 至 
0.893 ZA, AACCR 提升 至 0.923 左右 ; 而 当 题 量 提 
升 至 30 时 ， 真 模型 的 表现 出 现 反 转 ，dwn_wc 的 
PCCR 提升 至 0.954 左右 ，AACCR 提升 至 0.986 左 
^h, MCI 在 相同 条 件 下 ，PCCR 提升 至 0.976 EA, 
AACCR 提升 至 0.992 左右 MCI 表现 超过 了 
dy wc 。 而 在 低 质 量 条 件 下 ,无 论题 目 数量 如 何 变 
tt, dy uc 始终 有 着 最 高 的 判 准 率 ， 这 再 次 展现 了 
非 参 数 诊断 方法 处 理 低 题目 质量 的 优势 。 其 次 , 在 
题目 数量 中 等 及 较 少 条 件 下 , 两 类 诊断 方法 在 判 准 
率 上 的 差距 较为 明显 , 但 随 着 题目 数量 不 断 增加 ， 
差距 在 不 断 缩小 ,特别 是 在 高 质量 情况 下 ,，MC- 
CDM 的 表现 会 出 现 反 转 ， 这 说 明 题目 数量 对 参数 
类 诊断 方法 的 影响 要 大 于 对 非 参 数 方法 的 影响 。 样 
本 量 对 两 类 诊断 方法 的 判 准 率 影 响 程 度 较 小 。 

表 4 呈 现 了 真 模型 为 MC2 时 ,两 类 诊断 方法 在 


表 4 两 类 诊断 方法 的 模式 判 准 率 和 属性 判 准 率 ( 真 模型 为 MC2) 


PCCR AACCR 
题目 质量 ”题目 数量 RR A 
h-MC don-me MCI MC2 dy wc don-me MCI MC2 
高 质量 10 30 0.772 0.700 0.746 0.697 0.915 0.884 0.904 0.896 
50 0.781 0.700 0.747 0.701 0.917 0.880 0.900 0.893 
100 0.788 0.705 0.753 0.705 0.921 0.889 0.903 0.897 
20 30 0.907 0.888 0.887 0.888 0.966 0.961 0.935 0.967 
50 0.909 0.892 0.884 0.905 0.965 0.959 0.923 0.972 
100 0.911 0.896 0.886 0.916 0.967 0.961 0.923 0.971 
30 30 0.953 0.938 0.960 0.976 0.985 0.980 0.991 0.991 
50 0.949 0.938 0.966 0.973 0.985 0.981 0.989 0.992 
100 0.952 0.936 0.972 0.973 0.986 0.981 0.987 0.993 
低 质量 10 30 0.566 0.501 0.490 0.424 0.835 0.798 0.807 0.787 
50 0.580 0.493 0.497 0.424 0.841 0.797 0.815 0.786 
100 0.593 0.501 0.516 0.422 0.847 0.803 0.823 0.786 
20 30 0.787 0.752 0.723 0.642 0.931 0.917 0.915 0.886 
50 0.793 0.761 0.744 0.656 0.930 0.917 0.917 0.889 
100 0.792 0.762 0.754 0.666 0.931 0.918 0.921 0.892 
30 30 0.872 0.849 0.830 0.759 0.964 0.957 0.954 0.935 
50 0.873 0.846 0.844 0.777 0.965 0.956 0.959 0.940 
100 0.873 0.848 0.849 0.797 0.965 0.956 0.959 0.945 
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不 同 条 件 下 的 PCCR 和 AACCR 结果 ， 其 表现 与 真 
模型 为 MC1 时 的 结果 大 体 相 似 。 整 体 上 来 看 ， 
dy mc 的 表现 仍 是 最 优 。 


5 模拟 研究 二 


5.1 研究 目的 

目前 大 部 分 诊断 模型 研究 在 探讨 题目 质量 对 
判 准 率 影响 时 , 均 是 约束 题目 参数 为 固定 值 ， 或 在 
同一 质量 分 布 内 。 如 Chiu 等 (2018) 将 题目 参数 固定 
为 0.1,0.2 和 0.3, Ma 等 (2016) 将 一 份 测验 中 的 题目 
质量 约束 在 U(0.05,0.15), Bk U (0.15, 0.25) 范围 内 ， 
这 使 得 一 份 测验 中 题目 质量 过 于 同 质 。 而 在 现实 情 
境 中 , 一 份 测验 里 的 不 同 题目 可 能 会 在 质量 上 存在 
较 大 差异 。 因 此 , 本 研究 为 了 贴近 现实 ， 拟 探讨 当 
一 份 MC 测验 中 不 同 题目 的 质量 存在 较 大 差异 时 ， 
非 参 数 诊断 方法 的 表现 。 
S.2 ”实验 设计 

本 研究 为 3 因素 完全 交叉 设计 , 3 个 自 变量 分 
别 是 样本 量 ( N=30,50,100)、 测 验 长 度 ( =10,， 
20, 30)、 以 及 真 模型 (MC1, MC2)。 测验 前 半 部 分 题 
目 参 数 5;, KUO, 0.1) 中 生成 , 后 半 部 分 题目 的 参 
IX Oj. 从 U(0.2,0.4) 中 生成 。 由 于 前 半 部 分 题目 的 质 
量 较 高 ， 当 被 试 在 这 些 题目 中 发 生 失 误 时 , KAP 


更 大 的 惩罚 ， 因 此 在 dj,_me 方 法 中 设 定 前 半 部 分 
题目 的 失误 权重 ws; 应 更 大 ; 而 后 半 部 分 题目 的 质 
量 较 低 ， 则 设 定 后 半 部 分 题目 的 失误 权重 ws, E 
小 。 由 于 惩罚 权重 ws) 的 设 定 没 有 可 参考 的 前 人 研 
究 作 为 依据 ,因此 经 过 多 次 的 预 实验 探索 ， 本 研究 
最 终 确 定 将 前 半 部 分 题目 的 失误 权重 ws 设 定 为 2， 
后 半 部 分 题目 的 失误 权重 ws 设 定 为 1, 猜测 权重 
wg, 设 定 为 1。 其余 条 件 与 模拟 研究 一 相同 。 
5.3 ”实验 结果 

表 5 呈现 了 各 个 诊断 方法 在 不 同 条 件 下 的 模式 
判 准 率 和 平均 属性 判 准 率 。 在 所 有 条 件 下 ，dh_mc 
的 表现 均 最 优 ，PCCR 在 0.647 至 0.943 ZH], 
AACCR 在 0.868 至 0.986 之 间 ; d, Me 与 MCI 的 
RMKZ, 4J=10N, dy vo 表现 更 好 ， 当 题目 
数量 提升 至 20 或 30 Hf, MCI 表现 更 好 ,两 者 的 
PCCR 分 别 在 0.623 至 0.908 以 及 0.578 至 0.939 之 
间 ，AACCR 分 别 在 0.820 至 0.970 以 及 0.847 至 
0.986 之 间 ; dy wc 和 MC2 相对 表现 最 差 。 测验 长 
度 大 幅 提 高 了 两 类 诊断 方法 的 估计 精度 ， 其 对 参数 
类 模型 的 提升 作用 更 大 ,更 长 的 测验 长 度 可 以 缩小 
参数 类 方法 与 非 参数 方法 的 差距 。 样本 量 对 两 类 模 


un 


型 的 估计 精度 均 有 轻微 的 提高 作用 。 总 


本 而 言 ， 当 


MC 测验 中 题目 质量 存在 较 大 差异 时 ，dna_wMc 对 KS 


A5 题目 质量 存在 较 大 差异 时 各 方法 的 模式 判 准 率 和 属性 判 准 率 
PCCR AACCR 
真 模型 ”题目 数量 ”样本 量 
dyme — du uc dc MCI MC2 dyme dise Sane MCI MC2 
MCI 10 30 0.631 0.547 0.669 0.596 0.523 0.865 0.820 0.877 0.858 0.835 
50 0.644 0.549 0.675 0.605 0.518 0.866 0.825 0.877 0.856 0.822 
100 0.645 0.543 0.678 | 0.623 0.523 0.869 0.825 0.880 0.866 0.826 
20 30 0.839 0.812 0.888 0.857 0.796 0.945 0.935 0.964 0.958 0.937 
50 0.840 0.817 0.882 0.859 0.800 0.948 0.939 0.964 0.960 0.938 
100 0.844 0.819 0.894 0.877 0.829 0.947 0.937 0.967 0.964 0.946 
30 30 0.904 0.878 0.938 0.930 0.906 0.975 0.968 0.986 0.984 0.978 
50 0.904 0.883 0.943 0.933 0.916 0.974 0.968 0.987 0.984 0.981 
100 0.908 0.891 0.942 0.939 0.925 0.976 0.970 0.986 0.986 0.983 
MC2 10 30 0.623 0.546 0.647 0.578 0.512 0.866 0.820 0.868 0.847 0.825 
50 0.638 0.548 0.672 0.601 0.521 0.866 0.824 0.876 0.858 0.827 
100 0.643 0.548 0.676 0.621 0.519 0.870 0.824 0.879 0.865 0.825 
20 30 0.834 0.803 0.886 0.853 0.801 0.944 0.933 0.967 0.957 0.939 
50 0.836 0.808 0.897 0.862 0.817 0.942 0.931 0.969 0.959 0.944 
100 0.838 0.808 0.892 0.868 0.828 0.944 0.932 0.966 0.960 0.948 
30 30 0.905 0.879 0.942 0.925 0.900 0.973 0.966 0.986 0.982 0.976 
50 0.906 0.884 0.942 0.928 0.909 0.974 0.968 0.986 0.984 0.979 
100 0.905 0.884 0.937 0.933 0.924 0.974 0.968 0.985 0.984 0.982 


第 9 期 3p fm 等 : 基于 选项 层面 的 认 知 诊断 非 参数 方法 1039 
表 6 包含 干扰 项 信息 的 大 学 英语 高 级 英语 阅读 测验 Q 和 矩阵 
题目 1 题目 2 题目 3 题目 4 
A 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
B 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
C 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 0 0 0 0 0 0 
D 0 0 0 0 0 0 1 1 0 1 0 1 1 0 0 1 0 0 1 1 1 0 0 0 
题目 5 题目 6 题目 7 题目 8 
A 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 
B 1 1 1 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
C 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 
D 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
题目 9 题目 10 题目 11 题目 12 
A 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
B 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 
C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 
D 1 0 1 0 0 0 1 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 
题目 13 题目 14 题目 15 
A 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 0 0 
B 1 1 0 0 0 0 1 0 1 0 0 0 1 0 1 0 0 0 
C 1 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 OQ 
D 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 
TE: 加 粗 选项 为 正确 答案 选项 。 
的 估计 精度 最 高 。 表 6 所 示 。 


值得 注意 的 是 ， 本 研究 还 发 现 ， 即使 真 模型 为 
MC2, 使 用 MC1 估计 得 到 的 判 准 率 也 要 高 于 MC2 
估计 的 结果 , 与 之 前 研究 呈现 出 不 一 样 的 结果 ， 这 
说 明 当 测验 中 的 题目 质量 异 质 ( 即 差 异 较 大 ) 时 ， 
MCI 的 表现 更 加 稳定 。 


6 实证 研究 


6.1 数据 说 明 

本 研究 实证 数据 来 自 某 高 校 大 学 英语 高 级 英 
语 阅 读 考 试 中 的 15 道 选择 题 , 被 试 量 为 607 A. 
虑 到 需要 将 干扰 项 信息 包含 在 Q EER, 因此, 我 
们 邀请 了 4 名 外 国语 学 院 教授 (其 中 2 位 参与 了 编 
题 工 作 ) 对 15 道 题目 的 所 有 选项 进行 了 编码 。 具 体 
而 言 ， 首 先 ， 采 用 文献 分 析 法 ,根据 《语言 文字 规 
范 (GF 0018-2018)》 中 对 中 国 英语 学 习 者 英语 阅读 
能 力 的 界定 , 结合 本 测验 考查 内 容 ， 共 析出 了 6 个 
属性 ,分别 是 : Al: 提取 细节 ; A2: 理解 句子 间 关 
A: A3: 推测 隐 含 意义 ; A4: 概括 主旨 要 义 ; A5: 
推断 作者 情感 态度 ; AO: 理解 修辞 手法 。4 名 教授 
分 别 独立 标定 ， 之 后 计算 他 们 在 所 有 选项 上 标定 
的 一 致 性 ， 即 肯 德 尔 万 系数 ,得 到 W = 0.938, p < 
0.001， 表 明 Q 矩阵 标定 的 一 致 性 较 高 。Q 矩阵 如 


分 别 使 用 两 类 诊断 方法 对 实证 数据 进行 分 析 。 
为 了 评估 非 参 数 诊 断 方法 和 MC-CDM 的 表现 , 参 
考 Chiu 等 (2018) 的 做 法 : 四 计算 非 参 数 方法 与 
MC-CDM 的 分 类 一 致 性 ,包括 平均 属性 分 类 一 致 


N 天 


Dek = Gi] 


性 指标 ( AAR = e ， 其 中 上 角 标 I 


表示 由 第 1 种 方法 得 到 的 佑 计 值 , 上 角 标 2 表示 由 
第 2 种 方法 得 到 的 估计 值 ), 模式 分 类 一 致 性 指标 1 


> 14} = 47] 
= _ i=l 
(PARE =) = e 
N K 
i) Sone = ái] zl 
性 指标 >5)= EL hkl e 
性 指标 2( PAR(K = 5) T ) 
@ 计 算 两 类 诊断 方法 估计 得 到 的 属性 总 体 掌握 程 
度 与 总 分 间 的 相关 。 由 于 dus c 在 两 个 模拟 研究 
中 均 表 现 不 佳 ,所 以 在 实证 研究 中 剔除 了 dus wc 
的 结果 。 


)， 以 及 模式 分 类 一 致 


属性 总 体 掌握 程度 是 将 被 试 的 属性 掌握 模式 ( 即 KS) 进 行 求 和 ， 如 
[11100] 的 被 试 的 掌握 程度 记 为 3。 
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表 7 展示 了 各 模型 间 的 三 种 分 类 一 致 性 程度 。 
首先 ， 同 类 型 的 诊断 方法 之 间 的 分 类 一 致 性 程度 更 
高 ， 非 参数 方法 与 MC-CDM 之 间 的 分 类 一 致 性 程 
度 相 对 较 低 但 仍 处 于 较 高 水 平 。 具 体 而 言 , MC1 与 
MC2 之 间 的 AAR, PAR (K = 6) 以 及 PAR (K = 5) 
分 别 为 0.92, 0.71 和 0.94, d, wc 与 don_Mc 之 间 的 
AAR, PAR (K = 6) 以 及 PAR (K > 9) 分 别 为 0.88， 
0.61 和 0.92， 非 参数 方法 与 MC-CDM 的 AAR 在 
0.84~0.86 的 范围 内 , PAR (K = 6) 在 0.51~0.59 的 范 
EIN, PAR (K => 5) 在 0.87~0.89 的 范围 内 。 其 次 ， 相 
比 于 dh_me; diy c 与 MC-CDM 的 分 类 一 致 性 程度 
更 高 ; 相 比 于 MC2, MCI 与 非 参 数 方法 的 分 类 一 致 
性 程度 更 高 ,但 差异 较 小 。 总 的 来 说 ,各 诊断 方法 
之 间 的 分 类 一 致 性 程度 较 好 ， 而 同类 型 的 诊断 方法 
间 的 一 致 性 程度 更 高 。 

另外 , 还 计算 了 两 类 诊断 方法 估计 得 到 的 属性 
总 体 掌握 程度 与 总 分 间 的 相关 。 其 中 ，djh_mc 为 
0.779, MC1 为 0.745, d, qc 为 0.743, MC2 为 
0.740。 可 以 看 出 ，dn_wc 表 现 最 好 ,而 MC1 d, wc 
和 MC2 的 表现 稍 差 ， 且 三 者 之 间 的 差异 很 小 。 综 
合 而 言 ， 考虑 到 该 测验 属性 个 数 较 多 (K=6) 而 测验 
长 度 较 短 (三 15), 各 诊断 方法 之 间 的 分 类 一 致 性 程 
度 在 可 接受 范围 内 。 


7 讨论 与 研究 结论 


71 讨论 与 展望 

在 模拟 研究 一 中 ， 当 题目 数量 为 30 题 且 题目 
质量 高 时 ， 真 模型 的 效果 好 于 非 参 方法 ， 而 在 20 题 
和 10 题 时 ， 真 模型 效果 均 差 于 非 参 方 法 。 如 表 3 
所 示 , MC1 为 真 模型 ,样本 量 为 50, 题目 质量 为 低 
时 , 测验 长 度 从 30 题 增加 到 20 JN, dy uc 方法 
的 PCCR 下 降 了 0.070, 而 MC1 FRET 0.095, 测验 
长 度 从 20 题 下 降 至 10 BL, dy uc 方法 的 PCCR 下 
降 了 0.210, 而 MC1 下 降 了 0.237; 固定 测验 长 度 为 


20 题 时 ,题目 质量 从 高 下 降 至 低 时 ，d_wc 方法 的 
PCCR FKT 0.113, 而 MC1 FKT 0.137。 在 题目 
质量 较 差 或 测验 长 度 较 短 时 ， 非 参数 方法 的 效果 优 
于 真 模型 ， 其 可 能 的 原因 是 测验 长 度 和 题目 质量 对 
诊断 模型 的 影响 更 大 ， 而 对 非 参 数 方法 的 影响 更 
小 。 例 如 , 在 Chiu 等 (2018) 中 ,以 DINA 模型 为 真 
模型 时 , 在 样本 量 为 50， 属 性 数 为 5, 题目 质量 中 
等 的 条 件 下 ， 当 测验 长 度 从 50 题 下 降 至 30 题 时 ， 
NPC 方法 的 PCCR 下 降 了 0.150, DINA 模型 下 降 了 
0.170; 在 固定 30 题 时 , 题目 质量 从 高 下 降 至 中 时 ， 
NPC 方法 的 PCCR 下 降 了 0.230, DINA 模型 下 降 了 
0.290。 我 们 推测 ， 在 MC 测验 中 ， 当 题目 质量 较 差 
或 测验 长 度 较 短 时 , 干扰 项 对 非 参 数 方法 的 效果 提 
升 高 于 对 诊断 方法 的 效果 ， 从 而 使 得 非 参 数 方法 能 
在 题目 质量 较 差 或 测验 长 度 较 短 时 表现 更 佳 。 综 上 
HRR, dpm 方法 在 题目 质量 较 差 或 测验 长 度 较 短 
时 具有 和 较 强 的 稳健 性 。 

此 外 , 在 研究 一 中 发 现 ， 当 MC2 为 真 模型 ,在 
高 题目 质量 中 的 20 题 和 30 题 条 件 下 ， 相 比 于 MC1， 
MC2 的 表现 更 好 ; 而 在 高 质量 题目 中 的 10 题 条 件 
F, MCI 的 表现 更 好 ; 低 质量 题目 的 所 有 条 件 下 ， 
MCI 的 表现 也 要 更 好 。 其 原因 可 能 在 于 , MC2 对 题 
目 质量 和 测验 长 度 的 敏感 性 更 高 ， 只 有 当 题 目 质量 
较 高 , 测验 长 度 较 长 时 ，MC2 才能 有 较 好 的 表现 。 
因此 , 在 模拟 研究 二 中 , 由 于 一 半 题 目的 质量 较 差 ， 
导致 即使 以 MC2 为 真 模型 ， 其 表现 也 差 于 MCI, 
这 说 明 当 测验 中 的 题目 质量 异 质 ( 即 差异 较 大 ) 时 ， 
MCI 的 表现 更 加 稳定 。 

Chiu 和 Douglas (2013) 提 出 的 加 权 汉 明 距 离 方 
法 相 较 于 简单 汉 明 距离 方法 表现 稍 好 ， 而 本 研究 基 
于 加 权 汉 明 距 离 逻 辑 提 出 的 w&，wc 在 MC 测验 中 
的 表现 不 及 简单 汉 明 距离 心 wc， 这 表明 可 能 不 能 
直接 将 传统 的 加 权 汉 明 距 离 推广 到 MC 测验 的 干扰 
项 层面 , 需要 结合 MC 题目 的 特点 , 提出 更 合理 的 
权重 计算 公式 ,以 提高 加 权 汉 明 距 离 在 MC 测验 中 


表 7 各 模型 间 的 分 类 一 致 性 程度 


指标 平均 属性 分 类 一 致 性 指标 模式 分 类 一 致 性 指标 1 模式 分 类 一 致 性 指标 2 
(AAR) (PAR(K = 6)) (PAR(K = 5)) 
dy wc dy Mc MCI MC2 dy wc dmc MCI MC2 dy c dmc MCI MC2 
dy wc 1 1 1 
dy ic 0.88 1 0.61 1 0.92 1 
MCI 0.85 0.86 1 0.55 0.59 1 0.88 0.89 1 
MC2 0.84 0.85 0.92 1 0.51 0.57 0.71 1 0.87 0.88 0.94 1 
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的 适用 性 。 另 外 , Chiu 和 Douglas (2013) 提 出 的 惩罚 
权重 汉 明 距离 方法 , 以 及 本 文 针 对 MC 测验 提出 的 
dpn_Mc 在 没有 题目 先 验 信息 的 情况 下 ,惩罚 权重 
的 取 值 需要 通过 预 实验 来 确定 ， 目 前 尚 无 更 好 的 方 
法 来 确定 惩罚 权重 。 例 如 ,在 本 文 的 实证 研究 中 ， 
首先 根据 MCI1 估计 得 到 15 道 题目 的 失误 参数 将 15 
道 题 划 分 为 高 、 中 、 低 三 个 质量 区 间 。 随 后 将 低 质 
量 题目 的 失误 权重 w, 设置 为 基准 值 1 中 等 质量 题 
目 设 置 失 误 权重 w 为 1+XX(X XE) 高 质量 题目 
设置 失误 权重 w 为 1+ 外 + 了 (7 为 正 )。 由 于 题目 的 
消 测 概率 都 为 二 ， 所 以 可 以 设置 所 有 题目 的 猜测 


系数 w。 为 常数 。 通 过 调整 了 和 了 的 值 ,然后 带 入 
dy Mc 的 公式 进行 估计 ， 再 计算 被 试 的 估计 属性 
掌握 程度 与 总 分 的 相关 ， 当 相关 达到 最 高 时 ， 此 时 
的 失误 权重 w, 则 为 最 优 值 。 需 要 指出 的 是 , X A Y 
的 取 值 在 不 同 的 测验 间 需 要 根据 上 述 步 又 进行 调 
整 ， 以 适 配 相 应 的 测验 情景 。 此 外 , 未 来 可 以 进 一 
步 探讨 更 合理 、 更 简便 、 更 一 般 化 的 惩罚 权重 设置 
方法 而 无 需 通过 预 实验 方法 来 确定 惩罚 权重 。 

当前 MC 测验 中 , 对 Q 矩阵 界定 的 限制 过 强 。 
首先 , 在 de la Torre (2009) 提 出 的 MC-DINA 框架 
下 ， 需 要 约束 干扰 项 的 q 向 量 编码 是 正确 答案 9 向 
量 的 子 集 , 但 在 实际 编制 测验 时 , 会 限制 干扰 项 的 
码 空间 。 如 ， 当 题目 包含 多 个 答题 策略 时 (不 同 策 
略 的 g 向 量 可 能 不 一 样 ), 那么 干扰 项 的 g 向量 就 可 
以 采用 另 一 个 策略 中 的 属性 组 合 方式 进行 编码 ; 或 
是 当 诊 断 测验 考察 了 迷失 概念 misconceptions) 时 ， 
干扰 项 的 g 向 量 可 以 设计 成 考察 这 些 迷 失 概 念 而 非 
认 知 属性 (Bradshaw & Templin, 2014)。 其 次 , Ozaki 
(2015) 提 出 的 MC-S-DINA 限制 同一 题目 中 干扰 项 
的 9 向 量 不 能 重复 使 用 ， 而 在 实际 编制 测验 时 ， 时 
常 出 现 此 情况 ,不 方便 选项 编码 。 未 来 可 以 在 考虑 
放松 MC 测验 Q 和 矩 阵 限制 的 前 提 下 ,提出 更 一 般 化 
的 MC 诊断 模型 及 非 参数 的 诊断 方法 。 

最 后 , 已 有 研究 者 (Yigit et al.，2019) 开 发 出 了 
基于 MC 测验 的 认 知 诊断 计算 机 自 适应 测试 
(MC-CD-CAT), 考虑 干扰 项 信息 的 CD-CAT 可 以 实 
现 仅 用 很 短 的 测验 就 能 显著 提高 考生 分 类 的 精度 。 
CD-CAT 需要 基于 大 样本 进行 参数 校准 后 才能 得 到 
较为 精确 的 题目 参数 ， 从 而 保证 被 试 能 力 估计 的 精 
度 。 若 基于 小 样本 校准 ,得 到 的 题目 参数 质量 较 差 ， 
此 时 基于 模型 的 能 力 估计 精度 就 无 法 保证 。 而 非 参 
数 CD-CAT 可 以 有 效 提 高 在 小 样本 情景 下 的 能 
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估计 精度 (Chang et al.，2019)， 更 适合 在 班级 水 平 
使 用 ,所 以 结合 干扰 项 信息 的 非 参 数 CD-CAT 值得 
研究 ， 实现 同时 兼顾 小 样本 规模 ， 短 测验 长 度 ， 高 
判 准 精 度 的 目的 。 
7.2 ”研究 结论 

本 研究 提出 了 3 种 非 参数 的 MC 诊断 方法 ， 基 
于 模拟 和 实证 研究 结果 ,得 出 如 下 结论 : 

(1) 相 比 于 MC-CDM, 非 参 数 MC 诊断 方法 在 
大 多 数 实 验 条 件 下 表现 更 优秀 ,， 判 准 率 更 高 , 尤其 
在 题目 质量 较 差 , 测验 长 度 较 短 时 效果 更 好 。 此 时 ， 
推荐 使 用 简单 汉 明 di uc o 

(2) 当 整个 测验 中 不 同 题目 质量 存在 较 大 差异 
时 ,惩罚 权重 汉 明 d,, uc 的 表现 最 好 ， 考 虑 优先 
使 用 。 

(3) 与 Chiu 和 Douglas (2013) 的 结果 不 同 , 加 权 
汉 明 d, uc 的 结果 在 三 种 非 参数 MC 诊断 方法 表 
现 最 差 ， 加权 汉 明 距离 不 适用 于 直接 推广 到 MC 测 
验 中 。 

(4) 在 实证 数据 分 析 中 , 非 参 数 类 诊断 方法 与 
MC-CDM 估计 得 到 的 被 试 属性 掌握 情况 的 一 致 性 
程度 较 高 。 并 且 , 由 估计 的 被 试 属性 总 体 掌握 程度 
与 其 总 分 的 相关 结果 表明 ,人 带 惩罚 系数 的 汉 明 距离 
得 到 的 相关 最 高 ， 因 此 可 知 dus uc 表现 最 好 。 
d, yc 与 两 种 MC-CDM 的 表现 相当 。 
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Abstract 


Cognitive diagnostic assessment (CDA) focuses on evaluating students' advantages and disadvantages in 


knowledge mastering, providing an opportunity for individualized teaching. Therefore, CDA has attracted 


attention of many scholars, teachers, and students at domestic and overseas. In CDA and a large number of 


standardized tests, multiple-choice (MC) are typical item types, which have the advantages of not being affected 


by subjective errors, improving test reliability, being easy to review, scoring quickly, and meeting the needs of 


content balance. To fulfil the potential of MC items for CDA, researchers proposed the MC-cognitive diagnosis 


models (MC-CDMs). However, these MC-CDMs pertain to parameter methods, which need a large sample size 


to obtain accurate parameter estimation. They are not suitable for small samples at class level, and the MCMC 


algorithm is very time-consuming. In this study, three nonparametric MC cognitive diagnosis methods based on 


hamming-distance are proposed, aiming at maximizing the diagnostic efficacy of MC items and being suitable 
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for the diagnosis target of a small sample. 

Simulation study 1 considered four factors: sample size (30, 50, 100), test length (10, 20, 30), item quality 
(high and low), and the true model (MC-S-DINA1, MC-S-DINA2). Three nonparametric MC methods and two 
parametric models were compared. The results showed that in most conditions, the pattern accuracy rates and 
average attribute accuracy rates of the nonparametric MC method( d, yc ) were higher than those of parametric 
models, especially when the test length was short or item quality was low. 

In a real test situation, the quality of different items in a test may vary greatly. Based on this, simulation 
study 2 set the first half of the items at high quality and the remaining items at low quality. The results showed 
that the pattern accuracy rates and average attribute accuracy rates of the nonparametric MC method ( dy, wc) 
were higher than those of the parametric models in all conditions. 

In an empirical study, the nonparametric MC methods and the parametric models were used to analyze a set 
of real data simultaneously. The results showed that nonparametric MC methods and parametric models 


presented high classification consistency rates. Furthermore, the dy, «c method had satisfactory estimations. 
In sum, d, yc was suitable in most conditions, especially when the test length was short or the item 
quality was low When the quality of different items was quite diverse, dy, yc was a better choice compared 


with parameteric approaches. 
Key words cognitive diagnostic assessment, multiple-choice item, distractor information, nonparametric diagnostic 
method, hamming distance 


